我们使用加强学习(RL)来处理数据中心中网络拥塞控制的任务。成功的拥堵控制算法可以显着改善延迟和整体网络吞吐量。直到今天,尚无此类基于学习的算法在该领域显示出实际潜力。显然,最近最受欢迎的部署依赖于基于规则的启发式方法,这些启发式方法经过预定的一组基准测试。因此,这些启发式方法并不能很好地概括到新近观察的场景上。相反,我们设计了一种基于RL的算法,目的是将其推广到现实世界数据中心网络的不同配置。我们克服了诸如部分观察性,非平稳性和多目标的挑战。我们进一步提出了一种利用奖励函数的分析结构来近似其导数并提高稳定性的策略梯度算法。我们表明,该方案的表现优于其他流行的RL方法,并概括了训练中未见的场景。我们的实验是在模拟通信网络行为的现实模拟器上进行的,与今天在实际数据中心中部署的流行算法相比,在多个考虑的指标上同时表现出了改进的性能。我们的算法正在生产起来,以取代世界上一些最大的数据中心中的启发式方法。
translated by 谷歌翻译
在诸如增强学习和变分自动编码器(VAE)培训等上下文中,梯度估计通常是将生成模型与离散潜在变量拟合的必要条件。撤销估计器(Yin等,2020; Dong,Mnih和Tucker 2020)在许多情况下实现了Bernoulli潜在变量模型的最新梯度差异。然而,撤消和其他估计器在参数空间的边界附近可能会爆炸方差,而解决方案倾向于存在。为了改善此问题,我们提出了一个新的梯度估计器\ textIt {BitFlip} -1,该{Bitflip} -1在参数空间边界的方差较低。由于BITFLIP-1具有与现有估计器的互补属性,因此我们引入了一个汇总的估计器,\ textIt {无偏梯度方差剪辑}(UGC),该估计量使用BITFLIP-1或每个坐标的摘要梯度更新。从理论上讲,我们证明UGC的差异均高于解除武装。从经验上讲,我们观察到UGC在玩具实验,离散的VAE训练以及最佳子集选择问题中实现了优化目标的最佳价值。
translated by 谷歌翻译
制药公司在严格监管且高度危险的环境中运营,单张单击可以导致严重的财务影响。因此,临床试验结果的公告倾向于确定事件的未来过程,因此受到公众的密切监视。在这项工作中,我们为结果颁布对公共药品市场价值的影响提供了统计证据。尽管大多数工作都集中在回顾性影响分析上,但本研究旨在预测公告诱发的股票价格变化的价值。为此,我们开发了一条管道,其中包括一个基于BERT的模型,用于提取公告的情感极性,一种用于预测预期回报的时间融合变压器,用于捕获事件关系的图形卷积网络以及预测价格变化的梯度提升。问题的挑战在于对正面和负面公告的反应固有不同的模式,反映在对负面新闻的更强烈,更明显的反应中。此外,在积极公告后,股票下降的现象肯定了价格行为的违反直觉。重要的是,我们发现了在预测框架内工作时应考虑的两个关键因素。第一个因素是该公司的药物组合规模,表明在小型药物多样化的情况下,公告的敏感性更大。第二个是与同一公司或诺斯科有关的事件的网络效应。所有发现和见解都是根据最大的FDA(食品药品监督管理局)公告数据集获得的,该数据集由过去五年中681家公司的5436个临床试验公告组成。
translated by 谷歌翻译
分布式形态框架的支持者提出了两个形态形成的两个层面:一个较低的单词形成,导致输入输出语义关系松散;和一个高层,导致了紧密的输入输出语义关系。在这项工作中,我们建议在希伯来语单词嵌入的背景下测试该假设的有效性。如果两个级别的假设得到了证实,我们期望最先进的希伯来语单词嵌入将编码(1)名词,(2)从其衍生而来(通过上级操作)和(3)和(3 )与名词相关的动词(通过名词根部的低级操作),以使得(2)在嵌入空间中应比相关动词(3)更接近名词(1)。是相同的名词(1)。我们报告说,这一假设通过希伯来语的四个嵌入模型来验证:FastText,Glove,Word2Vec和Alephbert。这表明单词嵌入模型能够捕获出于形态学动机的复杂而细粒的语义属性。
translated by 谷歌翻译
我们处理与混合倡议的会话搜索方案:即用户询问系统答案,以及系统询问(澄清问题)和用户答案。我们专注于选择下一个澄清问题的任务,给定对话上下文。我们的方法利用通道检索,用于初始选择相关候选澄清问题,以及微调两个深度学习模型,用于重新排名这些候选人。我们在两种不同用例中评估了我们的方法。第一个是在大型Web集合中的开放式域会话搜索。第二个是面向任务的客户支持设置。我们展示我们的方法在两个使用情况下表现良好。
translated by 谷歌翻译
近期对抗性生成建模的突破导致了能够生产高质量的视频样本的模型,即使在真实世界视频的大型和复杂的数据集上也是如此。在这项工作中,我们专注于视频预测的任务,其中给出了从视频中提取的一系列帧,目标是生成合理的未来序列。我们首先通过对鉴别器分解进行系统的实证研究并提出产生更快的收敛性和更高性能的系统来提高本领域的最新技术。然后,我们分析发电机中的复发单元,并提出了一种新的复发单元,其根据预测的运动样本来改变其过去的隐藏状态,并改进它以处理DIS闭塞,场景变化和其他复杂行为。我们表明,这种经常性单位始终如一地优于以前的设计。我们的最终模型导致最先进的性能中的飞跃,从大型动力学-600数据集中获得25.7的测试集Frechet视频距离为25.7,下降到69.2。
translated by 谷歌翻译
In this work we aim to solve a large collection of tasks using a single reinforcement learning agent with a single set of parameters. A key challenge is to handle the increased amount of data and extended training time. We have developed a new distributed agent IMPALA (Importance Weighted Actor-Learner Architecture) that not only uses resources more efficiently in singlemachine training but also scales to thousands of machines without sacrificing data efficiency or resource utilisation. We achieve stable learning at high throughput by combining decoupled acting and learning with a novel off-policy correction method called V-trace. We demonstrate the effectiveness of IMPALA for multi-task reinforcement learning on DMLab-30 (a set of 30 tasks from the DeepMind Lab environment (Beattie et al., 2016)) and Atari-57 (all available Atari games in Arcade Learning Environment (Bellemare et al., 2013a)). Our results show that IMPALA is able to achieve better performance than previous agents with less data, and crucially exhibits positive transfer between tasks as a result of its multi-task approach. The source code is publicly available at github.com/deepmind/scalable agent.
translated by 谷歌翻译